智能论文笔记

Detecting Rotated Objects as Gaussian Distributions and Its 3-D Generalization

Xue Yang , Gefan Zhang , Xiaojiang Yang , Yue Zhou , Wentao Wang , Jin Tang , Tao He , Junchi Yan

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-22

现有检测方法通常使用参数化边界框（Bbox）进行建模和检测（水平）对象，并将其他旋转角参数用于旋转对象。我们认为，这种机制在建立有效的旋转检测回归损失方面具有根本的局限性，尤其是对于高精度检测而言，高精度检测（例如0.75）。取而代之的是，我们建议将旋转的对象建模为高斯分布。一个直接的优势是，我们关于两个高斯人之间距离的新回归损失，例如kullback-leibler Divergence（KLD）可以很好地对齐实际检测性能度量标准，这在现有方法中无法很好地解决。此外，两个瓶颈，即边界不连续性和正方形的问题也消失了。我们还提出了一种有效的基于高斯度量的标签分配策略，以进一步提高性能。有趣的是，通过在基于高斯的KLD损失下分析Bbox参数的梯度，我们表明这些参数通过可解释的物理意义进行了动态更新，这有助于解释我们方法的有效性，尤其是对于高精度检测。我们使用量身定制的算法设计将方法从2-D扩展到3-D，以处理标题估计，并在十二个公共数据集（2-D/3-D，空中/文本/脸部图像）上进行了各种基本检测器的实验结果。展示其优越性。

translated by 谷歌翻译

Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence

Xue Yang , Xiaojiang Yang , Jirui Yang , Qi Ming , Wentao Wang , Qi Tian , Junchi Yan

分类：计算机视觉 | 人工智能 | 机器学习

2021-06-03

现有的旋转对象探测器主要来自水平检测范式，因为后者已经进化到发达的区域。然而，由于当前回归设计的限制，这些检测器难以在高精度检测中进行突出的高精度检测，尤其是具有大纵横比的对象。在旋转物体检测的情况下，采用透视图，在本文中，在旋转和水平检测的关系方面，我们有动力改变从感应范例到扣除方法的旋转回归损失。我们表明一个基本挑战是如何调制旋转回归损耗中的耦合参数，因为这种估计参数可以以自适应和协同方式在动态联合优化期间彼此影响。具体地，我们首先将旋转边界框转换为2-D高斯分布，然后计算高斯分布之间的Kullback-Leibler发散（KLD）作为回归损耗。通过分析每个参数的梯度，我们显示KLD（及其衍生物）可以根据对象的特征动态调整参数梯度。它将根据宽高比调整角度参数的重要性（梯度重量）。随着高精度检测，这种机制对于大角度误差会导致大型纵横比对象的严重精度下降至关重要。更重要的是，我们证明了KLD是规模不变的。我们进一步表明，KLD丢失可以退化为流行的$ l_ {n} $ - 常规损耗进行水平检测。使用不同探测器的七个数据集的实验结果显示其一致的优势，并且在https://github.com/yangxue0827/rotationDetection提供代码。

translated by 谷歌翻译

A Deep Learning Method for Real-time Bias Correction of Wind Field Forecasts in the Western North Pacific

Wei Zhang , Yueyue Jiang , Junyu Dong , Xiaojiang Song , Renbo Pang , Boyu Guoan , Hui Yu

分类：人工智能 | 计算机视觉

2022-12-29

Forecasts by the European Centre for Medium-Range Weather Forecasts (ECMWF; EC for short) can provide a basis for the establishment of maritime-disaster warning systems, but they contain some systematic biases.The fifth-generation EC atmospheric reanalysis (ERA5) data have high accuracy, but are delayed by about 5 days. To overcome this issue, a spatiotemporal deep-learning method could be used for nonlinear mapping between EC and ERA5 data, which would improve the quality of EC wind forecast data in real time. In this study, we developed the Multi-Task-Double Encoder Trajectory Gated Recurrent Unit (MT-DETrajGRU) model, which uses an improved double-encoder forecaster architecture to model the spatiotemporal sequence of the U and V components of the wind field; we designed a multi-task learning loss function to correct wind speed and wind direction simultaneously using only one model. The study area was the western North Pacific (WNP), and real-time rolling bias corrections were made for 10-day wind-field forecasts released by the EC between December 2020 and November 2021, divided into four seasons. Compared with the original EC forecasts, after correction using the MT-DETrajGRU model the wind speed and wind direction biases in the four seasons were reduced by 8-11% and 9-14%, respectively. In addition, the proposed method modelled the data uniformly under different weather conditions. The correction performance under normal and typhoon conditions was comparable, indicating that the data-driven mode constructed here is robust and generalizable.

translated by 谷歌翻译

IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation

Lihua Fu , Haoyue Tian , Xiangping Bryce Zhai , Pan Gao , Xiaojiang Peng

分类：计算机视觉

2022-12-06

Semantic segmentation usually benefits from global contexts, fine localisation information, multi-scale features, etc. To advance Transformer-based segmenters with these aspects, we present a simple yet powerful semantic segmentation architecture, termed as IncepFormer. IncepFormer has two critical contributions as following. First, it introduces a novel pyramid structured Transformer encoder which harvests global context and fine localisation features simultaneously. These features are concatenated and fed into a convolution layer for final per-pixel prediction. Second, IncepFormer integrates an Inception-like architecture with depth-wise convolutions, and a light-weight feed-forward module in each self-attention layer, efficiently obtaining rich local multi-scale object features. Extensive experiments on five benchmarks show that our IncepFormer is superior to state-of-the-art methods in both accuracy and speed, e.g., 1) our IncepFormer-S achieves 47.7% mIoU on ADE20K which outperforms the existing best method by 1% while only costs half parameters and fewer FLOPs. 2) Our IncepFormer-B finally achieves 82.0% mIoU on Cityscapes dataset with 39.6M parameters. Code is available:github.com/shendu0321/IncepFormer.

translated by 谷歌翻译

Vehicle Trajectory Tracking Through Magnetic Sensors: A Case Study of Two-lane Road

Xiaojiang Ren , Yuanfa Tu , Yingfan Geng

分类：机器人

2022-09-09

Traffic surveillance is an important issue in Intelligent Transportation Systems(ITS). In this paper, we propose a novel surveillance system to detect and track vehicles using ubiquitously deployed magnetic sensors. That is, multiple magnetic sensors, mounted roadside and along lane boundary lines, are used to track various vehicles. Real-time vehicle detection data are reported from magnetic sensors, collected into data center via base stations, and processed to depict vehicle trajectories including vehicle position, timestamp, speed and type. We first define a vehicle trajectory tracking problem. We then propose a graph-based data association algorithm to track each detected vehicle, and design a related online algorithm framework respectively. We finally validate the performance via both experimental simulation and real-world road test. The experimental results demonstrate that the proposed solution provides a cost-effective solution to capture the driving status of vehicles and on that basis form various traffic safety and efficiency applications.

translated by 谷歌翻译

AU-Supervised Convolutional Vision Transformers for Synthetic Facial Expression Recognition

Shuyi Mao , Xinpeng Li , Junyao Chen , Xiaojiang Peng

分类：计算机视觉

2022-07-20

本文介绍了我们针对六个基本表达分类的方法论情感行为分析（ABAW）竞赛2022年的曲目。从人为生成的数据中表达并概括为真实数据。由于合成数据和面部动作单元（AU）的客观性的模棱两可，我们求助于AU信息以提高性能，并做出如下贡献。首先，为了使模型适应合成场景，我们使用了预先训练的大规模面部识别数据中的知识。其次，我们提出了一个概念上的框架，称为Au-persuped卷积视觉变压器（AU-CVT），该框架通过与AU或Pseudo Au标签共同训练辅助数据集来显然改善了FER的性能。我们的AU-CVT在验证集上的F1分数为0.6863美元，准确性为$ 0.7433 $。我们工作的源代码在线公开可用：https：//github.com/msy1412/abaw4

translated by 谷歌翻译

Video-based Smoky Vehicle Detection with A Coarse-to-Fine Framework

Xiaojiang Peng , Xiaomao Fan , Qingyang Wu , Jieyan Zhao , Pan Gao

分类：计算机视觉

2022-07-08

视频中的自动烟熏车辆检测是用于传统昂贵的遥感遥控器，其中具有紫外线的紫外线设备，用于环境保护机构。但是，将车辆烟雾与后车辆或混乱道路的阴影和湿区域区分开来是一项挑战，并且由于注释数据有限，可能会更糟。在本文中，我们首先引入了一个现实世界中的大型烟熏车数据集，其中有75,000个带注释的烟熏车像图像，从而有助于对先进的深度学习模型进行有效的培训。为了启用公平算法比较，我们还构建了一个烟熏车视频数据集，其中包括163个带有细分级注释的长视频。此外，我们提出了一个新的粗到烟熏车辆检测（代码）框架，以进行有效的烟熏车辆检测。这些代码首先利用轻质的Yolo检测器以高召回率进行快速烟雾检测，然后采用烟极车匹配策略来消除非车辆烟雾，并最终使用精心设计的3D模型进一步完善结果，以进一步完善结果。空间时间空间。四个指标的广泛实验表明，我们的框架比基于手工的特征方法和最新的高级方法要优越。代码和数据集将在https://github.com/pengxj/smokyvehicle上发布。

translated by 谷歌翻译

Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction

Yue Cao , XiaoJiang Zhou , Jiaqi Feng , Peihao Huang , Yao Xiao , Dayao Chen , Sheng Chen

分类：人工智能

2022-05-20

事实证明，丰富的用户行为数据对于点击率（CTR）预测应用程序具有很高的价值，尤其是在工业推荐，搜索或广告系统中。但是，由于在线服务时间的严格要求，现实世界系统不仅可以充分利用长期用户行为。大多数以前的作品都采用基于检索的策略，在此策略中，首先检索了少数用户行为以进行后续注意。但是，基于检索的方法是最佳的，会造成或多或少的信息损失，并且很难平衡检索算法的有效性和效率。在本文中，我们提出了SDIM（基于采样的深度兴趣建模），这是一种简单但有效的基于采样的端到端方法，用于建模长期用户行为。我们从多个哈希功能中采样，以生成候选项目和用户行为序列中的每个项目的哈希签名，并通过直接收集与具有相同哈希签名的候选项目相关的行为项来获得用户兴趣。我们在理论上和实验上表明，所提出的方法在基于标准的基于注意力的模型上对长期用户行为进行建模，同时更快。我们还介绍了系统中SDIM的部署。具体而言，我们通过设计一个名为BSE（行为序列编码）的单独模块（行为序列编码），将行为序列哈希（这是最耗时的部分）解脱出最耗时的部分。 BSE对于CTR服务器是无延迟的，使我们能够建模极长的用户行为。进行离线和在线实验，以证明SDIM的有效性。 SDIM现在已在线部署在Meituan应用程序的搜索系统中。

translated by 谷歌翻译

Self-Ensemling for 3D Point Cloud Domain Adaption

Qing Li , Xiaojiang Peng , Qi Hao

分类：计算机视觉

2021-12-10

最近3D点云学习一直是计算机视觉和自主驾驶中的热门话题。由于事实上，难以手动注释一个定性的大型3D点云数据集，无监督的域适应（UDA）在3D点云学习中流行，旨在将学习知识从标记的源域转移到未标记的目标领域。然而，具有简单学习模型引起的域转移引起的泛化和重建误差是不可避免的，这基本上阻碍了模型的学习良好表示的能力。为了解决这些问题，我们提出了一个结束到底自组合网络（SEN），用于3D云域适应任务。一般来说，我们的森林度假前的含义教师和半监督学习的优势，并引入了软的分类损失和一致性损失，旨在实现一致的泛化和准确的重建。在森中，学生网络以具有监督的学习和自我监督学习的协作方式，教师网络进行时间一致性，以学习有用的表示，并确保点云重建的质量。在几个3D点云UDA基准上的广泛实验表明，我们的SEN在分类和分段任务中表现出最先进的方法。此外，进一步的分析表明，我们的森也实现了更好的重建结果。

translated by 谷歌翻译

Scene Graphs: A Survey of Generations and Applications

Xiaojun Chang , Pengzhen Ren , Pengfei Xu , Zhihui Li , Xiaojiang Chen , Alex Hauptmann

分类：计算机视觉

2021-03-17

场景图是一个场景的结构化表示，可以清楚地表达场景中对象之间的对象，属性和关系。随着计算机视觉技术继续发展，只需检测和识别图像中的对象，人们不再满足。相反，人们期待着对视觉场景更高的理解和推理。例如，给定图像，我们希望不仅检测和识别图像中的对象，还要知道对象之间的关系（视觉关系检测），并基于图像内容生成文本描述（图像标题）。或者，我们可能希望机器告诉我们图像中的小女孩正在做什么（视觉问题应答（VQA）），甚至从图像中移除狗并找到类似的图像（图像编辑和检索）等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此，场景图引起了大量研究人员的注意力，相关的研究往往是跨模型，复杂，快速发展的。然而，目前没有对场景图的相对系统的调查。为此，本调查对现行场景图研究进行了全面调查。更具体地说，我们首先总结了场景图的一般定义，随后对场景图（SGG）和SGG的发电方法进行了全面和系统的讨论，借助于先验知识。然后，我们调查了场景图的主要应用，并汇总了最常用的数据集。最后，我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。

translated by 谷歌翻译